AIOps是什么或如何理解AIOps?
据Gartner研究,在过去几年内,IT运营人员 (IT Ops) 发生了巨大变化。这种变化的推动力来自于企业IT运营团队认为传统IT管理技术和方法已经无法适应数字化业务转型。Gartner预测,我们会看到当前的IT应用程序会发生剧变,而且我们管理整个IT生态系统的方式也会改变。这些变化的关键是Gartner所称的AIOps平台。
在接下来几篇文章中,我将讨论AIOps,以及它在近期对我们有何影响。今天,我要讨论的是什么是AIOps,以及推动其发展的力量有哪些。
1、数字化转型与AIOps之路
了解数字化转型如何引发Gartner的AIOps平台出现非常重要。数字化转型包含云计算的采用、快速变更和新技术的实施。它还要求将关注的重心转向应用和开发人员,更快地开展创新和部署,并且赢得新的数字化用户–机器代理、物联网 (IOT) 设备、应用编程接口 (API) 等–而企业过去无需为这些用户服务。所有这些新技术和用户将传统性能和服务管理战略与工具推到了其能力极限。
Gartner采用AIOps一词描述应对这些数字化转型问题所需的IT运营描述变化。
2、AIOps是什么?
AIOps指多层技术平台,这些平台采用分析和机器学习技术分析从多种IT运营工具和设备收集的大数据,自动实时确定并应对问题,从而实现IT运营的自动化和增强。
Gartner解释了AIOps平台如何采用图1所示模式而运行。AIOps包含两个主要组件: 大数据和机器学习。
它要求摒弃孤立的IT数据,以整合观测数据(例如在监控系统和工作日志中发现的数据)和大数据平台内部的交流数据(通常存在于工作单、事故和事件记录中)。然后,AIOps针对汇总的IT数据实施一种综合的分析和机器学习 (ML) 战略。这样做的预期成效是获得持续的洞察力,进而采用自动化能力实现持续改进和修复。AIOps可视为核心IT功能的持续集成和部署 (CI/CD)。
图1:Gartner的AIOPS平台示意图
AIOps将三个不同的IT专业(服务管理、性能管理和自动化)结合在一起, 以实现持续洞察和改进的目标。在我们新的IT加速环境中,AIOps是一种识别策略,必须采用由大数据和机器学习支撑的新理念。
3、AIOps的推动因素有哪些?
AIOps是足够新的IT平台,甚至还没有自己的维基百科页面。AIOps是Gartner IT运营分析 (ITOA) 的下一步演进。它的产生基于影响IT运营的多个趋势和需求,包括:
IT运营部门手动管理基础架构的难度。此处使用“基础架构”一词有些不当,因为现代化IT环境包括受管理的云、不受管理的云、第三方服务、SaaS集成、移动等。管理复杂性的传统方法在动态、弹性环境中行不通。如果通过手动方式跟踪并管理这种复杂性,人类的监督能力已经不再可能。当前的IT Ops技术已经超出手动管理的范围,而且这种情况以后会越来越差。
IT运营部门需要保留的数据量呈指数增长。性能监控产生的事件和告警数量呈指数级增长。服务单数量随着IOT设备、API、移动应用和数字或机器用户的引入而获得了跳跃式的增长。同样,手动报告和分析变得异常复杂。
基础架构问题必须更快地解决。随着企业的业务逐步数字化,IT也变成了业务。技术的“消费化”改变了所有行业中的用户期望。对IT事件的响应–无论是切实发生还是认为会发生的事件–需要立即进行,尤其是在问题影响用户体验的情况下。
更多计算能力转移到网络边缘。云基础架构和第三方服务的轻松采用使业务线 (LOB) 职能人员能够构建自己的IT解决方案和应用。控制权和预算从IT核心转到边缘。更多计算能力(可充分利用)来自核心IT外部。
开发人员拥有更多权力和影响力,但责任仍由核心IT人员承担。我在应用为中心的基础架构一文中曾经提到,DevOps和敏捷迫使编程人员在应用层面承担更多监控职责,但IT系统的整体健康状态以及应用、服务和基础架构间的交互仍由核心IT部门负责。随着网络日益复杂,IT运营部门要承担更多职责。
4、AIOps的要素
对于AIOps理念,旧有的IT运营方式不适合以上需求所定义的新世界。同样,Gartner将IT运营管理 (ITOM) 和应用性能管理 (APM) 定义为魔力象限市场,而且Gartner可能也为AIOps市场创建一个魔力象限。AIOps平台由以下要素组成。
图2:构成AIOps平台的技术
全面且不同的IT数据源 - 来自目前孤立的工具和IT领域,例如事件、指标、日志、作业数据、工单、监控等。
大数据平台 – 汇总IT数据,用于进行历史分析、实时响应和洞察。
计算(运算)和分析 – 使系统能够从现有IT数据中生成新数据和元数据。运算和分析也消除了噪声,可识别模式或趋势,隔离可能的问题,发现底层问题,并且实现其他IT特定目标。
算法 – 利用IT领域专业知识,根据企业数据及其预期成果的要求,以智能化方式适当且高效地运用计算和分析能力。
无人监督的机器学习 – 可根据算法分析输出结果和引入系统的新数据而自动修改或创建新算法。
可视化 – 以易于使用的方式向IT运营人员呈现洞察和建议,有助于加深理解并采取行动。
自动化 – 采用分析和机器学习成果自动创建并运用响应措施,或者针对已发现的问题进行改进。
如上文所述,AIOps平台应包含性能管理、服务管理、自动化和流程改进等IT学科, 以及监控、服务台、容量管理、云计算、SaaS、移动性、IoT等技术。
5、AIOps落地的考虑
需要指出的是,尽管AIOps代表了对IT运行的彻底背离,但并非激进地运用分析和机器学习。在股票经纪人从手动交易转向机器交易时,他们也采用了类似的机器学习方法。分析和机器学习使用在社交媒体中,Google Maps、Waze和Yelp应用中,以及Amazon和eBay等在线市场中。在需要实时响应动态变化的形势和用户定制环境中,这些技术得到了可靠且广泛的应用。
IT运营人员对类似AIOps环境的适应速度较慢,因为出于必要性,我们的工作始终更加保守。IT运营部门的工作是保证业务不中断,并且保证企业应用所依赖的基础架构的稳定性。然而,由于以上所列的趋势,越来越多的IT运营机构(尤其是在企业中)需要在不久的将来实施AIOps战略和技术。
温馨提示:
请搜索“ICT_Architect”或“扫一扫”下面二维码关注公众号,获取更多精彩内容。
听说点赞和分享的朋友都已走上人生巅峰